期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于关联函数的数据流聚类算法
潘丽娜 王治和 党辉
计算机应用    2013, 33 (01): 202-206.   DOI: 10.3724/SP.J.1087.2013.00202
摘要1120)      PDF (776KB)(576)    收藏
传统数据流聚类算法大多基于距离或密度,聚类质量和处理效率都不高。针对以上问题,提出了一种基于关联函数的数据流聚类算法。首先,将数据点以物元的形式模型化,建立解决问题所需要的关联函数;其次,计算关联函数的值,以此值的大小来判断数据点属于某簇的程度;然后,将所提方法运用到数据流聚类的在线-离线框架中;最后,采用真实数据集KDD-CUP99和随机生成的人工数据集进行算法的测试。实验结果表明,所提方法的聚类纯度在92%以上,每秒能处理约6300条记录,与传统算法相比,处理效率有了较大的提高,在维度和簇数目方面的可扩展性较强,适用于处理大规模的动态数据集。
参考文献 | 相关文章 | 多维度评价
2. 基于混合概率潜在语义分析模型的Web聚类
王治和 王凌云 党辉 潘丽娜
计算机应用    2012, 32 (11): 3018-3022.  
摘要986)      PDF (743KB)(488)    收藏
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(HPLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型, 通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的HPLSA模型和页面聚类的HPLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的kmedoids 算法。设计并构建了HPLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。
参考文献 | 相关文章 | 多维度评价